#coding:utf-8
'''
Created on 2017年12月18日

@author: yqm
'''
from xml.dom import minidom
import os

file_dir = "G:\\研究生\\实验\\实验记录\\20171218\\SogouCS.reduced"
file_dir_after = "G:\\研究生\\实验\\实验记录\\20171218\\SogouCS.reduced\\sougou_after2"
start = '<docs>\n'
end = '</docs>'
cal = 0
def file_fill(file_dir):
    for root, dirs, files in os.walk(file_dir):
        for f in files:
            tem_dir = file_dir + '\\sougou_after2' + '\\' + f  #加上标签后的文本,存放在sougou_after2文件夹中
            text_init_dir = file_dir + '\\' + f     #原始文本
            file_source = open(text_init_dir, 'r', encoding='gb18030')  #只读方式打开原始文本
            ok_file = open(tem_dir, 'a+', encoding="utf-8")           #追加模式打开
            line_content = file_source.readlines()  #逐行读取原始文本
            ok_file.write(start)                    #原始文本开头添加<docs>
            for lines in line_content:
                text = lines.replace("&", "&amp")
                ok_file.write(text)
            ok_file.write(end)
            file_source.close()
            ok_file.close()
            print(f)
        break
    print("mission complete!")

def file_read(file_dir_after):
    for root, dirs, files in os.walk(file_dir_after):
        for f in files:
            doc = minidom.parse(file_dir_after + '\\' + f)
            root1 = doc.documentElement
            content = root1.getElementsByTagName("url")
#             print(content[0].childNodes[0].nodeValue)
            print(content[0].firstChild.data)

if __name__ == '__main__':
    file_fill(file_dir)
#     file_read(file_dir_after)

















